www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home
Занимательная история, выдающиеся люди, малоизвестные факты, находки, открытия, фальсификации. Присоединяйся!

Основы Data Science (R): импорт данных из Excel - readxl

Дата публикации Sep 22, 2019

Есть много способов импорта и экспорта файлов. Мы говорили оXLSXВ прошлый раз и в этот раз мы пройдем через readxl, аналогично, есть некоторые параметры, которые необходимо установить, особенно при импорте текста.


пакет

readxl

функциональность

Читать файлы xls и xlsx

Описание

read_excel () вызывает excel_format (), чтобы определить, является ли путь xls или xlsx, в зависимости от расширения файла и самого файла, в этом порядке. Используйте read_xls () и read_xlsx () напрямую, если вы знаете лучше и хотите предотвратить такое предположение.


демонстрация

Входные данные включают текст на английском языке, число, текст на традиционном китайском языке и текст на упрощенном китайском языке.

В конце этой демонстрации вы узнаете, какие параметры должны быть указаны для импорта данных с различными форматами контекста в R. Одно основное отличие между использованием xlsx и readxl, xlsx может поддерживать только импорт файлов xlsx, ноreadxl поддерживает файлы xlsx и xls,

Функция для тестирования (настройки по умолчанию):

read_excel (путь, лист = NULL, диапазон = NULL, col_names = TRUE, col_types = NULL, na = «», trim_ws = TRUE, пропуск = 0, n_max = Inf, предположения, max = min (1000, n_max))

read_xls (путь, лист = NULL, диапазон = NULL, col_names = TRUE, col_types = NULL, na = «», trim_ws = TRUE, пропуск = 0, n_max = Inf, предположения, max = min (1000, n_max))

read_xlsx (путь, лист = NULL, диапазон = NULL, col_names = TRUE, col_types = NULL, na = «», trim_ws = TRUE, пропуск = 0, n_max = Inf, предположения, max = min (1000, n_max))


Входной файл

Reference_Sample.xlsx

Reference_Sample.xls

Код

###############
library(readxl)
###############
getwd()
# read excel xls/ xlsx - method 1
xls_df = read_excel(path = "Reference_Sample.xls", sheet = "Sample_Sheet")

Аналогично использованию xlsx, если языковой стандарт не определен, китайские символы отображаются в коде UTF. Если вам нужно прочитать символы китайского языка или специальные символы на других языках, необходимо установить локаль.

Sys.setlocale(category = "LC_ALL", locale = "Chinese") 
# read excel xls/ xlsx - method 1
xls_df1 = read_excel(path = "Reference_Sample.xls", sheet = "Sample_Sheet")
xlsx_df1 = read_excel(path = "Reference_Sample.xlsx", sheet = "Sample_Sheet")

Файлы xlsx и xls импортируются в структуре фрейма данных, и символы традиционного китайского и упрощенного китайского языков могут быть успешно отображены.

readxl также предоставляет другие функции для импорта файлов xlsx или xls.

# read excel xls - method 2
xls_df2 = read_xls(path = "Reference_Sample.xls", sheet = "Sample_Sheet")
# read excel xlsx - method 3
xlsx_df2 = read_xlsx(path = "Reference_Sample.xlsx", sheet = "Sample_Sheet")

И read_xls, и read_xlsx могут демонстрировать те же функции чтения, что и read_excel. Как указано в имени функции, read_xls может только читать файл xls, в то время как read_xlsx может только читать файл xlsx. Если вы сделаете все наоборот, появится следующая ошибка.

xlsx_df3 = read_xlsx(path = "Reference_Sample.xls", sheet = "Sample_Sheet")

Ошибка в sheet_fun (путь): Ошибка оценки: не удалось найти "в" Reference_Sample.xls ".


Резюме

По сравнению с пакетом xlsx, readxl может читать как файлы xlsx, так и xls, и здесь меньше настроек. При использовании readxl требуются только путь к файлу и имя листа. Среди 3 функций, read_excel, read_xls и read_xlsx, read_excel применима как к файлам xlsx, так и к xls, поэтому, вообще говоря, read_excel рекомендуется для чтения файлов Excel.

Вы можете найти другие статьи импорта и экспорта данных в RВот,


Слова от редактора

Если вы хотите узнать больше об уловках и навыках, вы можете просмотреть наш веб-сайт:https://cydalytics.blogspot.com/

LinkedIn:

Кэрри Ло -https://www.linkedin.com/in/carrielsc/

Енг вонг- https://www.linkedin.com/in/yeungwong/


  1. Основы Data Science (R): импорт данных из текстовых файлов - textreadr & readtext
  2. Основы науки о данных (R): импорт и экспорт данных в Excel - xlsx
  3. Советы по визуализации данных (Power BI) - преобразование категориальных переменных в фиктивные
  4. Облако китайских слов различной формы (Python)
  5. Создание игры для детей, чтобы выучить английский язык и весело провести время с Python

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map